hhkbheehyeon's Knowledge Base

AI인공지능기초 · 04

AI 서비스 개발 사이클

작성자 : Heehyeon Yoo|2025-12-01

# AI# Lifecycle# DataPipeline# MLOps# DataScientist

1. 개요

AI 서비스 개발은 일반적인 소프트웨어 개발보다 데이터의 비중이 훨씬 크다. 한 번 만들고 끝나는 구조가 아니라, 기획부터 배포 이후 재학습까지 계속 순환하는 생명주기를 가진다.

여기서는 음성인식 AI 스피커를 예로 들어, 이 흐름이 어떻게 돌아가는지 정리한다.

2. 개발 단계(Development Stages)

전체 흐름은 기획, 수집, 가공, 모델 개발, 배포, 재학습으로 이어진다.

2.1. 서비스 기획 및 데이터 설계

서비스 기획 단계에서는 무엇을 만들지보다, 어떤 데이터를 어떻게 모을지를 먼저 같이 설계해야 한다.

목표 설정: 타겟 사용자와 핵심 기능을 정한다. 예를 들면 10~40대를 대상으로 음성 명령을 수행하는 스피커를 기획하는 식이다.
데이터 기획: 수집할 데이터 범위를 정한다. 표준어 사용 여부, 문장 길이 10초 내외, 카페나 가정처럼 다양한 소음 환경 포함 여부가 여기에 들어간다.
법적 검토: 개인정보 보호법이나 GDPR 준수 여부, 데이터 수집 동의 절차를 확인한다.

2.2. 데이터 수집(Data Collection)

이 단계의 핵심은 양질의 데이터를 충분히 확보하는 것이다.

수집 채널: 전문 성우, 크라우드 소싱, 사내 직원, 유튜브나 외부 영상 등 여러 경로를 활용할 수 있다.
환경 변수: 실제 사용 환경을 반영해야 하므로, 조용한 방음실 데이터만 모으면 부족하다. 소음이 있는 공간 데이터도 함께 필요하다.

2.3. 데이터 가공(Data Labeling)

데이터 가공은 수집한 원본 데이터에 정답을 붙이는 과정이다. 지도학습을 하려면 이 단계가 빠질 수 없다.

지도학습 준비: 음성 파일과 전사된 텍스트를 서로 정확히 매핑해야 한다.
리소스 소요: 400시간 분량 데이터라면 사람이 거의 그만큼 시간을 들여 듣고 검수해야 한다. 그래서 인적 비용이 크게 든다.

2.4. 모델 개발 및 배포(Development & Deployment)

모델 개발 단계에서는 최신 기법을 검토하고, 실제 서비스에 맞는 구조로 학습과 배포를 진행한다.

모델 학습: 최신 논문과 SOTA 모델을 참고해 구조를 설계하고 학습한다.
배포 및 운영: 학습이 끝난 모델을 서비스 서버에 올려 실제 사용자 요청을 처리하게 한다.
피드백 루프: 배포 뒤에는 사투리 인식 실패처럼 예상 못 한 문제를 수집하고, 다음 개선 계획으로 연결한다.

2.5. 재학습(Retraining) 및 고도화

운영 과정에서 쌓이는 실사용 로그는 다음 성능 개선의 재료가 된다. 이 순환 구조를 데이터 플라이휠이라고 부른다.

큐레이션: 누적된 데이터 중 실제로 도움이 되는 데이터를 골라 재학습에 쓴다.

3. 관련 직무 및 역할(Roles)

AI 서비스는 한 직군만으로 돌아가지 않는다. 데이터, 모델, 운영, 기획이 모두 연결된다.

3.1. 데이터 관련 직무

데이터 레이블러: 데이터를 가공하고 검수하는 역할
데이터 사이언티스트: 수학, 통계, 머신러닝 지식을 바탕으로 비즈니스 지표를 세우고 A/B 테스트로 가설을 검증하는 역할
데이터 분석가: SQL, Tableau 같은 도구로 데이터를 시각화하고 인사이트를 도출하는 역할
데이터 엔지니어: 데이터 파이프라인을 만들고, 하둡 같은 도구로 대용량 데이터를 적재하고 관리하는 역할

3.2. AI 모델링 및 운영 직무

AI 연구원: 최신 알고리즘을 연구하고 모델 성능을 끌어올린다. 논문 이해와 구현 능력이 같이 필요하다.
MLOps: 모델 배포, 운영, 모니터링, 재학습 자동화를 담당한다. AI가 실제 서비스에서 안정적으로 돌게 만드는 핵심 역할이다.

3.3. 기획 직무

AI PM/PO: AI 기술을 이해한 상태에서 제품 방향을 정하고 프로젝트 전체를 조율한다.

생성 모델과 데이터 윤리

딥러닝과 머신러닝 비교